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Организация словаря на основе применения 
метода построения дополнительного 
графа-пирамиды 


Предлагается метод организации словаря на основе использования графа-пирамиды, который позволяет 
без увеличения размера словаря учитывать случаи пропуска, замены и наличия лишних букв в 
распознаваемых словах. Для хранения совпадающих фрагментов слов используется только одна вершина 
пирамиды-словаря, что позволяет определять общие фрагменты слов без проведения дополнительного поиска. 


Введение 


При автоматическом распознавании текстов и речи зачастую возникает проблема 
соотнесения распознанного слова со словом из существующего словаря (далее — тер- 
мином). Это позволяет повысить точность распознавания даже в случае неправиль- 
ного или неоднозначного распознавания отдельных букв (фонем, визем). Для быстрого 
поиска в словаре соответствующего термина применяются различные методы, осно- 
ванные на специальной организации словарей — бинарные деревья, красно-чёрные 
деревья, слоёные списки [1]. В случае если предполагается, что соответствие между 
распознаваемым словом и словом из словаря может быть неполным (пропуск, замена, 
наличие лишних букв), то используются метод расширения выборки, #1е-деревья [2], [3], 
метод п-грамм и др. Для того, чтобы учесть возможность отсутствия начальных и конеч- 
ных букв в слове, словарь расширяют за счёт включения всех суффиксов и префиксов. 

В работе предлагается метод организации словаря на основе использования 
пирамиды, метод построения которой представлен в работах [4], [5]. Данный метод, 
в отличие от существующих аналогов, позволяет без увеличения размера словаря 
учитывать случаи пропуска, замены и наличия лишних букв в распознаваемых словах. 


Линейная пирамида 


В работах [4], [5] даны общие свойства пирамид и рассмотрены несколько их 
частных случаев. В данной работе используется только один тип пирамид, наиболее 
подходящий для организации словаря из терминов, которые представляют собой ко- 
нечные последовательности символов алфавита. Данный тип пирамид получил назва- 
ние линейных. 

Линейной пирамидой на графе С называется граф Р, имеющий следующие 
свойства: 

— каждая вершина пирамиды у, ‚ принадлежит определённому уровню 7; 
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— уровни пирамиды упорядочены от нижнего (первого) до верхнего (последнего) 
(1=1....,М№); 


— каждой вершине у, , пирамиды соответствует пара смежных вершин р(у,,), при- 


надлежащих предыдущему уровню (кроме вершин графа С, который рассматривается 
как самый нижний уровень пирамиды Р); 


— каждая из вершин, принадлежащая р(у, и} является родителем для вершины у, ,, 
которая, в свою очередь, является дочерней для вершин множества р(у, } ); 


— вершины одного уровня соединяются ребром только в том случае, если они имеют 
общего родителя; 
— вершины одного уровня у, ; и у,, соединяются ребром только в том случае, если 


общие родители пар вершин р(у,,) и р(у,,) не совпадают; 


— вершина пирамиды Р, не имеющая дочерних вершин, называется верхушкой пи- 
рамиды. 
Подграф р(у,,) называется родительским для вершины у, ,. 


Каждая вершина пирамиды имеет маркер, который зависит только от маркеров 
родительских вершин и ребер, соединяющих родителей. То есть по маркеру верши- 
ны можно определить маркеры её предков, и наоборот — по маркерам предков можно 
определить маркер их потомка (потомков). 

Каждой вершине пирамиды Р соответствует подграф графа С который в случае 
линейной пирамиды представляет собой цепь. Если маркеры двух вершин пирамиды 
одного уровня совпадают, то подграфы, им соответствующие, изоморфны. 

Пирамида образуется в результате построения, то есть начиная с основного графа 
(нулевого уровня) проводится следующая процедура — граф, соответствующий одному 
уровню, разбивается на подграфы, для каждого из которых в следующем уровне об- 
разуется новая вершина. Эти новые вершины являются дочерними для вершин соот- 
ветствующих подграфов предыдущего уровня, которые, в свою очередь, являются 
родителями для нововозведенных вершин. 

На рис. 1 представлен пример линейной пирамиды, построенной на графе, со- 
стоящем из вершин а, В, с, 4, который представляет собой цепь. Пунктирными линиями 
обозначены уровни пирамиды. В данной пирамиде три уровня (нулевой уровень — 


исходный граф). Если рассмотреть отдельную вершину у, ‚, принадлежащую второму 
уровню, то для неё родителями являются вершины у, / и у, ‚ ‚ принадлежащие первому 
уровню. Дочерней для данной вершины является у, ‚. Данная вершина имеет с у,, об- 
щего родителя у, ›, поэтому у,, и у, ‚ соединены ребром. Подграф основного графа, 
который соответствует у, ‚ ‚ образован вершинами а, В, с. 

Вершина у, , не имеет дочерних вершин, поэтому является верхушкой данной 


пирамиды, и ей соответствует весь основной граф. Она является потомком для всех 
остальных вершин этой пирамиды, которые, в свою очередь, являются предками для 
верхушки. 

Таким образом, каждый уровень пирамиды представляет собой граф, каждой вер- 
шине которого соответствует подграф предыдущего уровня. Вершины данного подграфа 
соединяются рёбрами, если цепи, которые им соответствуют, различаются только па- 
рой крайних вершин. 
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Рисунок 1 — Пример линейной пирамиды 


Использование графа для представления слов и словаря 


Каждое слово может быть представлено в виде графа, каждой вершине которого 
соответствует отдельная буква. А дуги (ориентированные рёбра) определяют после- 
довательность букв. Данный граф является цепью. Однако если в слове есть одинако- 
вые буквы, то различным вершинам данного графа будет соответствовать одна буква. 
Для того чтобы этого избежать, можно использовать граф, каждой вершине которого 
соответствует одна буква и не существует буквы, которой бы соответствовало более 
одной вершины. Дуги определяют последовательность букв в слове. При этом если в 
слове есть одинаковые буквы, то в цепь, определяющую слово, входит цикл. Если в 
слове подряд идут несколько одинаковых букв, то существует петля, инцидентная 
соответствующей вершине. 

Таким образом, всякий словарь может быть представлен в виде графа, каждой 
вершине которого соответствует буква алфавита (причём не существует двух вер- 
шин, которым бы соответствовала одна и та же буква), дуги, соединяющие вершины, 
определяют последовательность букв в словах. Каждое слово из данного словаря оп- 
ределяется цепью в данном графе. По сути, данный граф является мультиграфом. 
Количество вершин в данном графе равно количеству букв в алфавите, а максималь- 
ное количество рёбер — его квадрату. 

Для того, чтобы обозначить цепи, соответствующие словам, используется линей- 
ная пирамида. 

Каждая вершина линейной пирамиды имеет ровно двух родителей, которые при- 
надлежат одному уровню, являются смежными и, в свою очередь, имеют только одного 
общего родителя. Подграфами разбиения для построения линейной пирамиды явля- 
ются пары смежных вершин и инцидентная им дуга. Точнее сказать, каждому ребру 
(и соответственно инцидентным данному ребру вершинам) соответствует подграф 
разбиения и вершина более высокого уровня пирамиды. Это относится и к петлям. 

Таким образом, вершинам данной пирамиды соответствуют слова из словаря и 
их фрагменты. Если какое-то слово совпадает с фрагментом другого слова или какие- 
либо фрагменты слов совпадают, то им соответствует одна вершина данной пирамиды. 
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Множество дочерних вершин каждой вершины пирамиды делится на правое и 
левое подмножества (считается, что буквы в слове следуют слева направо). 


Построение пирамиды-словаря 


Каждому слову соответствует цепь в графе. Построение соответствующего 
участка пирамиды проводится в результате следующей процедуры - на цепи, кото- 
рая соответствует начальному фрагменту слова, строится линейная пирамида, затем 
к концу цепи добавляется ещё одна вершина, соответствующая следующей букве в 
слове, и пирамида достраивается. Так продолжается до тех пор, пока не закончится 
цепь — слово. В начале процедуры цепь инициализируется дугой и инцидентными ей 
вершинами, которые соответствуют первым двум буквам слова. 

То есть процедура построения участка линейной пирамиды для слова, которому 
соответствует цепь С = (у, ,....у,), и — количество букв в слове, выглядит следующим 


образом: 


Сь =(у,,у,) — инициализация текущей цепи. 
Построить линейную пирамиду [Р(С,) на С,; 
Цикл от 1=2 до 1=и 


{ 


Си =Сь+у, = (%,,....У,); 

достроить пирамиду [Р(Сь) до пирамиды [Р(Су). 
СЕ 

} 


Общий алгоритм построения пирамиды-словаря приведен ниже. 
Обозначим А = {а,,а,,....а„} —алфавит — множество букв, МА — количество букв; 


т = (а бы изу Я 5) слово, последовательность букв из алфавита А, причём 
буквы могут повторяться, ип -— количество букв в слове и; Р={м, м, ,.... Му) — 
словарь, множество слов, ОМ - количество слов в словаре; С = (У, Е) - граф алфавита. 

Свойства графа алфавита С = (У, Е): 

- ИЕ, у, ми Г: (а, Е А)=у,/"(@, ЕГ)=а, ЕА, то есть каждой букве из 
алфавита А соответствует одна вершина графа С’; 
— Е=\А(,у,):3иер,й < ип: (а„,а„ ) ем, Л(а,)=у,,Л(а„,)=у,}, Ч(у,,у,) — ду- 
га, инцидентная вершинам у, и у,, то есть любым двум соседним буквам любого 
слова, принадлежащего словарю РО, соответствует дуга графа С; 
— если 34 =А(ъ,,у,):у, =у, > 4(»;,у,) — петля. 
Обозначим Р=(У”, Е”) — линейная пирамида-словарь. Свойства Р = (/”, Е”): 
— ССР; 

Му’ ЕТ” \ИУЗу; = Ру, 2‘ ее в”: 
— у =[р(›’)- левый родитель, у’ = Вр(у’)- правый родитель, 


е’ =а(т,у,) > уКе”)=у,, уК(е”) =у, 
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— Му’ ЕЙ” 315(у”) = ЕЙ” :” = Вр(у/)} (1[5(у’) — множество левых дочерних 
вершин у”); 

— Уу’еЕИ” 9 А5(у”) =17 ЕР” 1” = [71 ( Е5 (у) — множество левых дочерних 
вершин у”); 

— 95е(е’)=у’:Уе’ ке Е”Чу’ еГ’\И:е' =а(Ёр(»’), Вр’); 

— тиКк(у’) — маркер вершины у”. 

Обозначим М „,(у”) — множество слов, которым принадлежит фрагмент, соот- 
ветствующий вершине у”. 

Алгоритм построения пирамиды-словаря основан на использовании рекурсивной 
функции для создания новых элементов на основе данной дуги. Обозначим данную 
функцию АКС РКОС(а, м). Алгоритм функции АВС _РВОС(а, и) имеет следую- 
ЩИЙ ВИД: 

АВС_РВОС(а , у) 

{ 

у’ — текущая левая вершина; 

у, — текущая правая вершина; 

Ч, — текущая дуга; 

если —Зу” = бе(4) то 

{ 
создать вершину у” = 5е(4); 
и 

В5(Ка)) = В5(Г(а)) у’; 

15(уК(4)) = [5(уВ(а)) ду’; 

м”) =М,(”) оф; 

} 
иначе у» = 5е(4); 
ттк(у(а)) =0; 
ттк(уВ(а)) = тах(\); 


тиК(уь ) = тах(\ ; 


если Зу/ е [5(у[(4)) :тиК(у’) = тах(у) то 
{ 


РР 
У =У, ; 


если —Я4 = (у, ,уь) то 
{ 
создать 4 =А(у/,у,); 
Ч, =4; 
} 
иначе 4, = 5.5 


АВС_РВОС(4,, %*) 
}. 
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Алгоритм построения пирамиды-словаря имеет следующий вид: 


С=(,Е=©); 
Бог (1=1;1< ОМ) 
{ 


и’ — 1-ое слово из словаря О; 
ог (/=1;]< ии’) 


{ 
если За = а (а„ ), аи. )) то а, = 4 Л(а„ ), (а ); 
иначе 
{ 
создать дугу 4 = 4(Л(а„),Л(а„ )); 
а, = Ч (а„ аи ; 
} 
АВС_РВОС(4,, м’); 
} 


} 

На рис. 2 представлен фрагмент пирамиды-словаря, соответствующий слову «ма- 
ма». Для наглядности вершины пирамиды маркированы фрагментами термина, которым 
они соответствуют. Пунктирной линией соединены вершина и дуга, которая являет- 
ся основой для соответствующего подграфа разбиения. 


мама 


Рисунок 2 — Пример фрагмента пирамиды-словаря, соответствующий слову «мама» 


Поиск по словарю на основе построения 
пирамиды поиска 


В качестве входных данных выступает последовательность множеств 5 = (Г, 
Г, „....[ м, ), каждое из которых состоит из вариантов букв — Г, = {а1 ‚а... }. Не- 


обходимо из каждого множества выбрать те буквы, последовательность которых сос- 
тавляла бы слова из словаря и(или) их фрагменты. 


К К Ки; 
22@ г ›.. Ч 
0 


> т 
т т; 


То есть необходимо найти такие последовательности и” = (а ), где 


т 


к >1, (К-+и, ) < №, которые бы соответствовали словам из словаря и их фрагментам. 
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После чего выполняется поиск наиболее подходящей условию задачи последователь- 


ности и”, что является отдельной задачей и здесь рассматриваться не будет. 


Поиск множества {и } осуществляется с помощью построения пирамиды поис- 


ка по образу и подобию пирамиды-словаря. 


Обозначим Р° =(7*,Е“)- пирамиду поиска. Свойства Р° = (7°,Е°): 
35у(у° еТ°):У у’ еГ°Зу?” ЕЙ” :5%(у°)=У’; 
35е(е° се Е*):Уе’ се Е* Зе’ ЕЕ” :5е(е°’)=е’; 
Го ={5° ЕЙ” :5%(>°)е С}; 
У ЕЙ АИ Ну Е Г°, у; ЕГ*, ее Ё°; 
у» =[р(у’)— левый родитель, у’ = Ар(у°)- правый родитель, ; 
е° =4(?,у7) > Ме”) =у, уВ(е”)=у;; 


Му’ ЕГ° 9 А5(у°) = 17° ЕЙ” :у° = [р(”)} ($(>°) — множество левых дочерних 


вершин у°); 


У у’ ЕГ® 915(у°) = № Е’ 15° = Ар(у”)} (15(›°) — множество левых дочерних 


вершин у”); 


35е(е*)=у°:Уе’еЕ*Зу° еГ*\И:е* =а([р(°), Вр(у°)); 

Му ур уе’ :ур = [р(У°),у = Вр(у”), 5е(е*) = у° <> 
УР = (У ),у = 5У(уР уг = 5(у’),е” = 5е(е”):у? = [р(у’), у = Вр(у’), 5е(е’) =у’ | 
Му уху:  [5(у°), 55 с В5(у°), > 

у = 57° ух = 5%(у> = (УХ): = 15(у'),у! = Ау’). 


Каждой вершине у пирамиды Р5 соответствует цепь вершин, принадлежащих 


множеству Гб У у’ ЕГ° \И 9С(у”) = (У И аи еТГ^) ‚ причём последователь- 
1 2 


В 
т, 


ность букв (Л (5У(у” Е (5у(у” ‚ )) соответствует слову из словаря и(или) фрагменту 


слова, которое соответствует вершине 5у(у’)ЕГ”\У. 


Алгоритм построения пирамиды поиска основан на использовании рекурсивной 


функции ЗАКС РКОС( а), которая на основе данной дуги создаёт новые элементы 
пирамиды. Алгоритм ЗАВС РКОС( 4 ) имеет следующий вид: 


ЗАВС_РВОС( а ) 
{ 


Р 
у, — текущая левая вершина; 
Р 
у, — текущая правая вершина; 
Я „ — текущая дуга; 


если —Зу” = бе(а) то 


создать вершину у” = 5е(4); 
Ва 
т 


В$(У[(а)) = В5(Г(а)) у’; 


Р 
у у; 
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15(уВ(а)) = [5(уВ(4)) ху’; 
} 


иначе у» = 5е(4); 


если Зу7 е [5(у[(4)) :34(5%(у7),5%(уь)) Е Е” то 


{ 
и 
если —Я4 = (у, ,уь) то 
{ 
создать 4 =А(у/,у,); 
Ч, =4; 
} 
иначе 4, = (угу); 
$АВС_РВОС(а,) 
} 
} 


В алгоритме построения пирамиды поиска используются следующие вспомога- 
тельные множества и переменные — С',С, — вспомогательные множества вершин 
графа И? (@, =! }), пС\,пС, — количество элементов во множествах С,,С.. Алго- 
ритм построения пирамиды поиска имеет следующий вид: 


@ =0; 
С, =@ 
юг (А =СА < №) 
{ 
Бог (1= 11 < иЁ, ) 
{ 
создать вершину у’ ЕЙ? су” : {(5%(у°)) =а,; 
С, =С, 94°}; 
} 
Бог (1=11<пС,) 
{ 
юг (= ]<пС.) 
{ 
если Зе” = 4(5%(»!), 5%(уу )ЕС то 
{ 
создать дугу 4, = А(»!, у) ) 
АВС _РКОС(а, ); 
} 
} 
} 
С =С,; 
= 2 
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Каждой вершине пирамиды Р®, не имеющей дочерних вершин, будет соответ- 
ствовать полное слово из словаря или(и) фрагмент слова из словаря. Если в искомом 
слове буквы пропущены или заменены на другие — необходимо проанализировать все 
найденные фрагменты на предмет возможности составления из них слов с пропуска- 
ми букв, что алгоритмически труда не представляет. 


Заключение 


Предложенный способ организации словаря в виде пирамиды позволяет исполь- 
зовать для хранения совпадающих фрагментов различных слов только одну вершину. 
Это позволяет определять общие фрагменты слов из словаря без проведения дополни- 
тельного поиска, а также кодировать их номером соответствующей вершины. Данный 
метод организации словаря в совокупности с поиском, основанным на методе построе- 
ния пирамиды, позволяет учитывать случаи отсутствующих, неправильных и лишних 
букв в распознаваемых словах. Также данный подход позволяет рассматривать раз- 
личные варианты слов в случае неоднозначного введения отдельных букв. 
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А.В. Агарков 

ОрганзащЯя словника на основ! застосування методу побудови додаткового графа-шрамщи 
Пропонуеться метод оргашзаци словника на основ! використання графа-шрам!ди, що дозволяе без 
зблльшення розм1ру словника враховувати випадки пропуску, зампни 1 наявност! зайвих букв у словах, 
що розшзнаються. Для збереження збжних фрагмент сл!в використовуеться тйльки одна вершина 
шрампди-словника, що дозволяе визначати загальн! фрагменти сл!в без проведення додаткового пошуку. 


А.Т. Авагкоу 

Псйопагу Сопзбгисйоп оп Фе Ва$5 ог АррИсаНоп о АЗ! опа! Сгарв-Ругапиа Вид ше Мето@Я 

[ 15 ргорозе4 фе @сйопагу сопзитасНоп те#о4 оп Фе Баз1$ оЁ е огарб-ругата азше \БеВ аПо\з ю 
сопз1ег у\лФоийЕ шсгеазе ш Фе $17е оЁ Фе Фсйопагу сазез опл151юп, терасетеп! ап4 ргезепсе о зарегНяой$ 
1ефегз ш гесозтите4 \\ог4$. Еог 5югазе оЁ сощетиточ$ Йастепй$ оЁ у’ог4$ оу опе ругап14-Ф@свопагу 
уецех 15 изе4 усн аПо\уз о 4ейпе Фе соттоп \ога йазтеп ул опЕ саггуш ой оРад опа] зеагсВ. 
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